爬虫的一些主观看法

查看原文

其他

爬虫的一些主观看法

From: 咪咪怪咪哥杂谈 2019-10-31

咪哥杂谈

本篇阅读时间约为 4 分钟。

前言

思考了许久，近期和爬虫相关的文章暂时先画上一个句号。关于爬虫，笔者谈谈自己的一些看法。如果有哪里大家不认同的地方，欢迎留言探讨。

学习爬虫的流程

先来说说爬虫的流程。关于流程，其实亘古不变，大体三步：

1. 找到数据的地址（接口），模拟人为进行请求。

2. 分析你要的数据 HTML 源代码。

3. 数据落地，保存数据到文件中或者数据库中。

掌握好这三点，所谓的爬虫框架思路便有了，剩下的就是要自己去分析与实现。

目前市场上最常见且最麻烦的反爬机制应该是 js 对数据进行加密，无法让你直接获取的相关明文数据。遇到这种情况就只能多多利用搜索引擎了，学习的是绕过与解密的思路。

笔者并不是爬虫工程师，所以一直也没有相关需求深入研究这块的东西，但是出于兴趣，曾经看到过两个不错的博客，推荐给想深入学习爬虫的朋友们。

知乎上有一个专栏，作者是个反爬大神，每篇写的思路都很好，有需要的可以去看看：

https://zhuanlan.zhihu.com/webspider

另，比较体系的爬虫博客（崔庆才，崔大神的博客）：

https://cuiqingcai.com

爬虫代码自主实现并不是唯一途径

由于 2016 年之后某乎炒起来的爬虫风，经过 3 年的沉淀，大部分网站都有写好的爬虫代码了。如果想学习，第一个想到的搜索引擎应该就是去 github 上搜索。大众的都会在上面找到。

之前的文章中写过一篇《不用写代码的爬虫工具》。当你熟悉编程以后，就会发现如果能不写代码，那是最舒服不过的了。根据不同的场景采用不同的工具，才是最具有效率的做法。

关于爬虫的看法

如果抛开商业公司来说，对于想学习 Python 的朋友们，爬虫依然是最好的入门实战练习选择之一。

但如果你已经掌握了大部分爬虫的原理，重复来重复去的写不同网站的爬虫，其实意义不是很大，爬虫仅仅是为了将网络上大部分公开数据搞到自己手里而已。爬取完了，然后呢？是不是就没然后了？相信大部分人都是把数据爬下来就结束了。从学习者的个人角度出发，单纯的爬虫一项是不足以为自己带来收益的。

从爬虫到数据分析的过程，知乎上见过一个成功案例，路人甲大大。人家那个不仅仅是为了爬取而爬取，爬取相应的内容后，通过数据分析给部分商业公司带来了可观的商业价值。这才是有意义的事儿。

若是说为了兴趣而写代码，相信没有多少人真的能坚持下去，初入社会时，天真的我以为真的是对代码感兴趣，实则不然，大概是因为这个时代月薪码农的工资还是较为可观的，要是转化成时薪一算，并不是可观的（加班呀，一天不止8小时工作时间）。

话说回来，如果学习爬虫要是为了赚钱，那肯定又是另一回事儿了。谁不爱钱呢？不要觉得谈钱俗，生在互联网时代，越早有商业思维，越能早点实现财务自由。

单单是通过写爬虫能给自己带来可观的收入或是价值，那也是不错的。但是往往想通过爬虫来创造对自己的收益，还需要别的技能，比如数据分析、web开发等。。。

web开发结合爬虫案例，最常见的就是各网站的信息整合，例如新闻整合的网站，其背后就是使用了爬虫采集各站信息。

结语

最后的最后，其实笔者现在就是处于上面的尴尬阶段，如果单纯的写入门级爬虫文章，对自己来说是没有太大意义的，单从技术上来说并无很大提升。

所以后续的文章，希望可以分享一些和 Python 相关的实用性文章，提升大家工作效率，或者真正可以改变生活中难点的文章。

当然如果这些效率性文章也写完了，就打算开始写写对自己专业技能有提升的东西了，比如算法！用 Python 写出来的算法代码，真的是非常简洁。。。

好啦，今天的分享就到这里，有什么想对我说的，欢迎留言呐！

▼往期精彩回顾▼谈谈读书 100行代码教你爬取斗图网 python队列小知识

长按关注

公众号名称：咪哥杂谈

一个咪咪怪的公众号

长按二维码关注哦！

你点的每个在看，我都认真当成了喜欢

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！